Gemma - 谷歌最新开放模型
Google 最近发布了 Gemma,并公开了其权重信息。
Gemma 是一个 open weight 模型。Open weight 指的是模型的权重(即模型训练完成后的参数)对外开放,用户可以直接使用这些权重来运行模型,进行推理或者微调(fine-tuning),对比其他开源模型,open source 则提供了更广泛的开放性。不仅模型权重是开放的,模型的代码、架构和训练过程也完全开源,用户可以自由访问和修改。
Gemma 可以通过 Vertex AI 或 Google Kubernetes Engine (GKE) 在 Google Cloud 上部署和训练 Gemma,利用文本生成推理和 Transformers 实现。
也可以使用 Google Colab,这是官方提供的代码:
https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynb
与其他开放模型相比:
Gemma 提供两种规模:7B 参数和 2B 参数版本。
Gemma 7B 是一个非常强大的模型,旨在高效部署和开发,适用于消费级 GPU 和 TPU,在 7B 参数级别的模型中性能可与最佳模型相媲美,包括 Mistral 7B。 Gemma 2B 虽然在其大小范围内是一个有趣的模型,适用于 CPU 和设备端应用,但在排行榜上的得分并不如同类最优秀的模型,比如 Phi 2 高。
如果想直接尝试,可以在这里找到:https://huggingface.co/chat?model=google/gemma-7b-it
下面是用 Gemma 模型给我整理的关于 Gemma 性能的答案:
根据 Google 的官方宣布,Gemma 是一个新的大语言模型,能够完成诸如文本摘要、代码翻译和问题解答等任务。以下是对其性能的概述:
亮点:
高准确率: 在各种任务上取得先进的性能,包括文本摘要、代码翻译和问题解答。 比 PaLM 和 Megatron-Turing NLG 等前模型在 T5 和 QNLG 的评测上表现更好。 多模态能力: 可以处理文本、代码和图像,使它适用于各种任务。 可以翻译代码 между Python 和其他编程语言。 无需特定训练: 可以顺利执行任务,不需要大量的训练。 可以更有效地转移任务之间的知识。
挑战:
资源占用: 需要大量的计算资源,可能限制其可访问性。 Google 表示正在开发技术以提高其效率。 偏见: 可能从训练数据中继承偏差。 Google 致力于通过各种方法减轻偏差,例如使用公平性意识的训练技术。
总体:
Gemma 是一个强大的语言模型,具有令人印象深刻的性能,能够推动许多应用程序的进步。然而,其资源占用和潜在 bias 是需要解决的挑战。